Text copied to clipboard!
Título
Text copied to clipboard!Engenheiro de Confiabilidade de Sites
Descrição
Text copied to clipboard!
Estamos à procura de um Engenheiro de Confiabilidade de Sites altamente qualificado para se juntar à nossa equipe de tecnologia. Este profissional será responsável por garantir que nossos sistemas e serviços online sejam altamente disponíveis, escaláveis e resilientes. O candidato ideal terá uma sólida experiência em engenharia de software, operações de sistemas e práticas de DevOps, com foco em automação, monitoramento e resposta a incidentes.
Como Engenheiro de Confiabilidade de Sites, você trabalhará em estreita colaboração com equipes de desenvolvimento, operações e segurança para projetar e implementar soluções que melhorem a confiabilidade e o desempenho de nossos serviços. Você será responsável por identificar pontos de falha, implementar práticas de engenharia de confiabilidade e liderar iniciativas de melhoria contínua.
Suas responsabilidades incluirão a criação e manutenção de ferramentas de monitoramento, a definição de indicadores de nível de serviço (SLIs) e objetivos de nível de serviço (SLOs), além de participar de análises pós-incidente para garantir que os problemas não se repitam. Você também atuará como um defensor da cultura de confiabilidade dentro da organização, promovendo boas práticas e colaborando com outras equipes para alcançar metas comuns.
Este papel exige habilidades técnicas avançadas, capacidade de resolver problemas complexos sob pressão e uma mentalidade proativa. Se você é apaixonado por sistemas distribuídos, automação e melhoria contínua, esta é a oportunidade ideal para você.
Responsabilidades
Text copied to clipboard!- Garantir a alta disponibilidade e desempenho dos serviços online
- Desenvolver e manter ferramentas de monitoramento e alerta
- Definir e acompanhar SLIs e SLOs
- Colaborar com equipes de desenvolvimento e operações
- Automatizar processos operacionais e de implantação
- Participar de análises pós-incidente e implementar ações corretivas
- Melhorar continuamente a confiabilidade dos sistemas
- Documentar processos e práticas recomendadas
- Conduzir testes de resiliência e recuperação
- Promover a cultura de confiabilidade na organização
Requisitos
Text copied to clipboard!- Formação em Ciência da Computação, Engenharia ou área relacionada
- Experiência com sistemas distribuídos e em larga escala
- Conhecimento em linguagens como Python, Go ou Java
- Experiência com ferramentas de monitoramento como Prometheus, Grafana ou Datadog
- Familiaridade com práticas de DevOps e CI/CD
- Conhecimento em containers e orquestração (Docker, Kubernetes)
- Capacidade de análise e resolução de problemas complexos
- Experiência com gestão de incidentes e resposta a falhas
- Boa comunicação e trabalho em equipe
- Inglês técnico para leitura e escrita
Perguntas potenciais de entrevista
Text copied to clipboard!- Você possui experiência com sistemas distribuídos em produção?
- Quais ferramentas de monitoramento você já utilizou?
- Como você define e acompanha SLIs e SLOs?
- Descreva uma situação em que você resolveu um incidente crítico.
- Você tem experiência com automação de processos operacionais?
- Como você promove a cultura de confiabilidade em uma equipe?
- Quais linguagens de programação você domina?
- Você já trabalhou com Kubernetes ou outras ferramentas de orquestração?
- Como você lida com situações de alta pressão?
- Você tem experiência com práticas de CI/CD?